Day 17 - Part-of-Speech Tagging（POS Tagging） - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 17

0

AI & Data

AI、機器學習以及深度學習的語言學應用系列第 17 篇

Day 17 - Part-of-Speech Tagging（POS Tagging）

17th鐵人賽

團隊美珠姨

2025-10-01 23:38:32

263 瀏覽

分享至

昨天介紹 Hidden Markov Model（HMM）的時候，有稍微提到文本當中的「詞性」是我們看不到的東西，因此可以用 HMM 這種模型來去推測每個詞的詞性。

因此，今天就要來講講 Part-of-Speech Tagging（POS Tagging），詞性標註。

POS Tagging 定義

POS Tagging 是對句子中每個詞彙 (token) 指派一個詞性標籤（如名詞、動詞、形容詞等）
它是一個序列標註 (sequence labeling) 任務：輸入為詞序列，輸出為對應長度的標籤序列
- 英文當中有一個常見的詞性標籤集（Tagset）是 The Penn Treebank，他常常被用來標記語料庫

為什麼要做 POS Tagging?

「詞性」是許多 NLP 任務，像是句法分析、或是之前介紹過的 NER 命名實體辨識等的基礎特徵
在語音識別、機器翻譯等任務當中，詞性標籤能提供一些句法線索，可以幫助機器模型理解句子的結構

POS Tagging 舉例

假設有這個句子：

The water is blue.

我們把它詞性標註過後，就會變成：

The/DT
water/NN
is/VBZ
blue/JJ

要注意的是很多字都是「歧義字」，也就是他們有不同的意思，甚至是不同詞性的意思，像是「book」這個字可以同時是名詞（書），也可以是動詞（預訂）

詞性標註這項任務也需要解決這項問題，可能的方式包含像是利用「頻率」的方式來決定一個詞的詞性

POS Tagging 的類型

Rule-based

這種方式是根據一些人工建立的規則來進行詞性標記
可能會利用像是英文詞當中的結尾，像是 -tion 這種結尾可能就會是名詞

Statistical

這個標註的方式是利用機率模型，運用機器學習的技術，去學習大型語料庫當中的 pattern
它標註詞性的方式，是利用該詞本身以及其周遭的語境，來計算詞性的可能性（likelihood）
常見的技術包含 HMM 跟 CRF

Transformation-based

這種方式雖然也是基於規則，但是不同的點在於，它會根據一些額外的規則來更新詞性
一開始，它會先給字詞詞性標記，然後再根據進一步的規則，像是在句子開頭的名詞後面會是動詞，去把原本的詞性更新（前面有講到 book 這個詞可以是動詞或是名詞，最常出現的可能就是名詞的意思，但是套用這邊講的規則，如果它放到句子開頭的名詞後面，就會被更新為動詞）

小結

POS Tagging 是自然語言處理當中的一項基礎任務，也是 HMM 的常見應用，它可以讓機器理解詞在句子中的語法角色，並幫助後續更進階的分析任務。

Day 16 - Hidden Markov Models（HMM）

Day 18 - Beam Search Algorithm

系列文

AI、機器學習以及深度學習的語言學應用共 30 篇

目錄

RSS系列文訂閱系列文

2 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IntelliJ IDEA 右上方run箭頭反灰

IT邦幫忙